numérisation en mode texte

numérisation en mode texte
   Deux méthodes sont possibles pour numériser un livre en mode texte. On peut saisir le livre de bout en bout sur le clavier de son ordinateur. On peut aussi scanner le livre page après page, ce qui donne des fichiers numérisés en mode image, puis on utilise un logiciel OCR (optical character recognition), qui permet de convertir chaque fichier image en fichier texte. Il est ensuite préférable de relire le contenu du fichier texte au regard de l’original (image scannée ou livre imprimé) en corrigeant les erreurs (dix erreurs par page en moyenne lorsque le logiciel OCR est de qualité). Dans l’un comme l’autre cas (saisie ou scannage + OCR), le texte numérisé apparaît en continu à l’écran, et la présentation de la page originale n’est pas conservée. A cause du temps passé au traitement de chaque livre, la numérisation en mode texte est assez longue. Elle est toutefois très préférable à la numérisation en mode image, puisqu’elle permet l’indexation, la recherche plein texte, l’analyse textuelle, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc. C’est la méthode utilisée par exemple par le Projet Gutenberg, la grande bibliothèque mondiale au format texte fondée en 1971. Le format de fichier obtenu est le format TXT, et l’extension du fichier est ".txt".

Le Dictionnaire du NEF. . 2015.

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

  • Numérisation de Documents Anciens Mathématiques — NUMDAM, abréviation de NUMérisation de Documents Anciens Mathématiques est une archive consacrée à la publication sur réseau de documents mathématiques numérisés en mode image : revues, actes de conférences, recueils de séminaires. Ce… …   Wikipédia en Français

  • Numérisation de documents anciens mathématiques — NUMDAM, abréviation de NUMérisation de Documents Anciens Mathématiques est une archive consacrée à la publication sur réseau de documents mathématiques numérisés en mode image : revues, actes de conférences, recueils de séminaires. Ce… …   Wikipédia en Français

  • ÉDITION ÉLECTRONIQUE — Pendant près de cinq siècles notre culture de l’écrit a été façonnée par les techniques et les usages de l’imprimé. Cette période s’achève aujourd’hui avec l’avènement de l’édition électronique. En passant du papier au numérique, le texte ne… …   Encyclopédie Universelle

  • Le Journal des chemins de fer — Journal des chemins de fer Pays France Langue français Périodicité hebdomadaire Genre ferroviaire …   Wikipédia en Français

  • Chartes bourguignonnes — Région à la fois riche et disputée, la Bourgogne a donné lieu à de nombreuses chartes au Moyen Âge. De nos jours, les paléographes s attachent à les réunir et à les étudier. Sommaire 1 Le programme d études Chartae Burgundiae Medii Aevi 1.1… …   Wikipédia en Français

  • Édition électronique — L édition électronique est une édition qui s appuie sur le réseau pour sa diffusion et, parfois, sa construction même. Elle est composée de trois grandes familles : la numérisation (par exemple Google livres), l édition numérique (la mise en …   Wikipédia en Français

  • Gallica — URL http://gallica.bnf.fr/ Commercial non Type de site Bibliothèque num …   Wikipédia en Français

  • Galica — Gallica Actuel logo de Gallica Gallica est la bibliothèque numérique de la Bibliothèque nationale de France. Elle regroupe des livres numérisés, des cartulaires, des revues, des photos et une collection d enluminures. Au… …   Wikipédia en Français

  • Gallica 2 — Gallica Actuel logo de Gallica Gallica est la bibliothèque numérique de la Bibliothèque nationale de France. Elle regroupe des livres numérisés, des cartulaires, des revues, des photos et une collection d enluminures. Au… …   Wikipédia en Français

  • WikiSource — est un projet multilingue de bibliothèque numérique, soutenu par la fondation Wikimedia, libre d accès, sans publicité, librement distribuable, édifiée par des bénévoles qui s appuient sur la technologie wiki. Le projet a été lancé le 23 novembre …   Wikipédia en Français

  • Wikisource — Le logo de Wikisource depuis mai 2006. Wikisource est un projet multilingue de bibliothèque numérique, soutenu par la Fondation Wikimedia, libre d accès, sans publicité, librement distribuable, édifiée par des bénévoles qui s appuient sur la… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”